Source | # of sentences | Average logarithmic rank |
---|---|---|
http://si.wikipedia.org/wiki/ඉතිහාසය | 14 | 5.85 |
http://si.wikipedia.org/wiki/පුරා_විද්යාවේදී_GIS_භාවිතය | 13 | 5.87 |
http://si.wikipedia.org/wiki/ප්රවේණික_විකෘති | 14 | 5.92 |
http://si.wikipedia.org/wiki/මානව_පරිසර_පද්ධති | 13 | 5.93 |
http://si.wikipedia.org/wiki/කැණීම | 11 | 5.94 |
http://si.wikipedia.org/wiki/නව_යටත්විජිතවාදය | 17 | 5.97 |
http://si.wikipedia.org/wiki/මහනුවර | 13 | 5.99 |
http://si.wikipedia.org/wiki/ප්රාග්_ඓතිහාසික_සමාජය | 13 | 5.99 |
http://si.wikipedia.org/wiki/ශ්රී_ලංකාවේ_පිත්තල_භාණ්ඩ | 14 | 6.00 |
http://si.wikipedia.org/wiki/පරිගණනය | 16 | 6.01 |
http://si.wikipedia.org/wiki/මාතර | 11 | 6.04 |
http://si.wikipedia.org/wiki/මිචිගන්හි_තර්ජනයට_ලක්_වූ_සතුන්ගේ_නාමාවලිය | 21 | 6.04 |
http://si.wikipedia.org/wiki/ඉන්දියාවේ_නාගරීකරණය | 11 | 6.06 |
http://si.wikipedia.org/wiki/ධරණීය_වනාන්තරවේදය | 15 | 6.06 |
http://si.wikipedia.org/wiki/විසිතුරැ_මසුන්_අති_රොග | 47 | 6.06 |
http://si.wikipedia.org/wiki/බුද්ධිමත්_නියෝජිතයා | 15 | 6.06 |
http://si.wikipedia.org/wiki/IPO_model | 16 | 6.06 |
http://si.wikipedia.org/wiki/ජින්_(කොරියානු_රාජ්යය) | 15 | 6.09 |
http://si.wikipedia.org/wiki/ශ්රී_ලංකාවේ_පළාත්_මල් | 37 | 6.09 |
http://si.wikipedia.org/wiki/හෙරඩෝටස් | 11 | 6.10 |
http://si.wikipedia.org/wiki/වනාන්තරය | 31 | 6.11 |
http://si.wikipedia.org/wiki/ඡායාරූපී_පෙරහන | 13 | 6.11 |
http://si.wikipedia.org/wiki/පලිබෝධනාශක | 27 | 6.13 |
http://si.wikipedia.org/wiki/ශාක_විවිධත්වය_-_ශ්රී_ලංකා | 16 | 6.14 |
http://si.wikipedia.org/wiki/වෛද්ය_විද්යාවේදී_ප්රතිරූපණ_ක්රම_ලබාදීමේ_සේවාව | 12 | 6.14 |
http://si.wikipedia.org/wiki/වන_සංවර්ධන_විද්යාව | 21 | 6.14 |
http://si.wikipedia.org/wiki/ඡායාරූප_ශිල්පී | 20 | 6.14 |
http://si.wikipedia.org/wiki/ජලය | 51 | 6.15 |
http://si.wikipedia.org/wiki/ඩයනා,_වේල්සයෙහි_කුමරිය | 11 | 6.16 |
http://si.wikipedia.org/wiki/ත්රිමාණ_ආකෘති_නිර්මාණකරණය | 23 | 6.16 |
Source | # of sentences | Average logarithmic rank |
---|---|---|
http://si.wikipedia.org/wiki/විවිධ_වර්ගයේ_ඇස්_නිසා_බිහි_වූ_"නාම_පද"_(nouns)_සහ_"නාම_විශේෂණ" | 25 | 8.69 |
http://si.wikipedia.org/wiki/සම්පසාදනීය_සූත්රය | 22 | 8.53 |
http://si.wikipedia.org/wiki/පොස්පොකොම්පොස්ට්_සෑදීම | 12 | 8.47 |
http://si.wikipedia.org/wiki/කමාන්ඩෝ | 14 | 8.40 |
http://si.wikipedia.org/wiki/පෘථිවිය_භ්රමණය_වෙන්නේ_ඇයි_(අවස්ථිතිය) | 20 | 8.31 |
http://si.wikipedia.org/wiki/යථාභූතං_ඤාණදස්සනං | 27 | 8.30 |
http://si.wikipedia.org/wiki/බැසිල්_මිහිරිපැන්න | 11 | 8.30 |
http://si.wikipedia.org/wiki/ප්රඥ්ඥාව_(බුදු_දහම) | 28 | 8.27 |
http://si.wikipedia.org/wiki/අග්ගඤ්ඤ_සුත්රය | 30 | 8.26 |
http://si.wikipedia.org/wiki/කටක_රාශිය | 12 | 8.25 |
http://si.wikipedia.org/wiki/රති_විනෝද_මෝදකය | 11 | 8.24 |
http://si.wikipedia.org/wiki/උප්පලවණ්ණා_රහත්_තෙරණිය | 30 | 8.21 |
http://si.wikipedia.org/wiki/නවාංග_සාත්රෘ_සාසනය | 35 | 8.21 |
http://si.wikipedia.org/wiki/මහා_සති_පට්ඨාන_සූත්රය | 34 | 8.17 |
http://si.wikipedia.org/wiki/නමස්කාරය | 30 | 8.16 |
http://si.wikipedia.org/wiki/සිංහල_ප්රස්තාපිරුළු_1300ක්,_වර්ගීකරණයක්,_සහ_වාග්සම්ප්රදායන්ගෙන්_වෙන්_කර_හඳුනා_ගැනීම | 458 | 8.16 |
http://si.wikipedia.org/wiki/සප්ත_බොජ්ඣංග | 51 | 8.11 |
http://si.wikipedia.org/wiki/Rock_Bottom_(SpongeBob_SquarePants) | 18 | 8.11 |
http://si.wikipedia.org/wiki/අන්නාසි_වගාව | 17 | 8.11 |
http://si.wikipedia.org/wiki/රෙක්ස්_කොඩිප්පිලි | 13 | 8.11 |
http://si.wikipedia.org/wiki/බාලගිරි_දෝෂය | 12 | 8.10 |
http://si.wikipedia.org/wiki/ශ්රී_ලංකාවේ_ඉපැරණි_කලා_නිර්මාණ | 20 | 8.08 |
http://si.wikipedia.org/wiki/හෝර්ටන්_තැන්න_(මහ_එලිය) | 18 | 8.07 |
http://si.wikipedia.org/wiki/සතර_අපාය | 26 | 8.05 |
http://si.wikipedia.org/wiki/හස්තරේඛා_ශාස්ත්රය | 11 | 8.04 |
http://si.wikipedia.org/wiki/නවම්_පසළොස්වක_පෝය | 13 | 8.02 |
http://si.wikipedia.org/wiki/යසෝදරාවත | 18 | 8.00 |
http://si.wikipedia.org/wiki/සේන_අම්බලම්ගොඩ | 11 | 8.00 |
http://si.wikipedia.org/wiki/Shunt_එකක්_දැමිම | 11 | 7.99 |
http://si.wikipedia.org/wiki/මධ්ය_සැකසුම්_ඒකකය | 13 | 7.99 |
In this subsection we replace average word length by average logarithmic word rank. The logarithm of the word rank is taken because we want to punish words of high ranks only moderately.
First table:
select source, count(distinct i_s.s_id) as cnt_s, round(avg(log(w.w_id-100)),2) as av from sources so, inv_so i_s, inv_w i, words w where so.so_id=i_s.so_id and i_s.s_id=i.s_id and i.w_id=w.w_id and w.w_id>100 group by source having cnt_s>10 order by av LIMIT 30;
6.4.2.1 Average word length for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words